哪个化学成分影响白葡萄酒的质量?
其中,白葡萄酒质量用quality变量表示,⾄少 3 名葡萄酒专家对每种酒的质量进⾏了评分, 分数在 0(⾮常差)和10(⾮常好)之间。分数越高,代表就的质量越好。
## [1] 4898
## [1] 13
## X fixed.acidity volatile.acidity citric.acid
## 1 : 1 Min. : 3.800 Min. :0.0800 Min. :0.0000
## 2 : 1 1st Qu.: 6.300 1st Qu.:0.2100 1st Qu.:0.2700
## 3 : 1 Median : 6.800 Median :0.2600 Median :0.3200
## 4 : 1 Mean : 6.855 Mean :0.2782 Mean :0.3342
## 5 : 1 3rd Qu.: 7.300 3rd Qu.:0.3200 3rd Qu.:0.3900
## 6 : 1 Max. :14.200 Max. :1.1000 Max. :1.6600
## (Other):4892
## residual.sugar chlorides free.sulfur.dioxide
## Min. : 0.600 Min. :0.00900 Min. : 2.00
## 1st Qu.: 1.700 1st Qu.:0.03600 1st Qu.: 23.00
## Median : 5.200 Median :0.04300 Median : 34.00
## Mean : 6.391 Mean :0.04577 Mean : 35.31
## 3rd Qu.: 9.900 3rd Qu.:0.05000 3rd Qu.: 46.00
## Max. :65.800 Max. :0.34600 Max. :289.00
##
## total.sulfur.dioxide density pH sulphates
## Min. : 9.0 Min. :0.9871 Min. :2.720 Min. :0.2200
## 1st Qu.:108.0 1st Qu.:0.9917 1st Qu.:3.090 1st Qu.:0.4100
## Median :134.0 Median :0.9937 Median :3.180 Median :0.4700
## Mean :138.4 Mean :0.9940 Mean :3.188 Mean :0.4898
## 3rd Qu.:167.0 3rd Qu.:0.9961 3rd Qu.:3.280 3rd Qu.:0.5500
## Max. :440.0 Max. :1.0390 Max. :3.820 Max. :1.0800
##
## alcohol quality
## Min. : 8.00 3: 20
## 1st Qu.: 9.50 4: 163
## Median :10.40 5:1457
## Mean :10.51 6:2198
## 3rd Qu.:11.40 7: 880
## Max. :14.20 8: 175
## 9: 5
读取相关数据,可知, 1. 该白葡萄酒数据集有13个变量,4898 条数据;
2. 该白葡萄酒数据集质量范围在3~9分之间。
##
## 3 4 5 6 7 8 9
## 20 163 1457 2198 880 175 5
从图中可以看出,本数据集的质量范围在 3~9 之间,其中质量为5,6的数量最多。
从每种质量分布的个数来看,基本属于正态分布,虽然并不标准。其中峰值为 quality=6.
下面,使用aes_string和ggplot搭配构造直方图函数,减少代码的重复
大部分 fixed.acidity 的含量在 5~9之间,其中峰值在 6~7 之间, fixed.acidity 的分布基本属于正态分布,存在一些异常值。
去掉 fixed.acidity 大于10的部分,可以看到, fixed.acidity 的分布基本呈现正态分布。
volatile.acidity 的分布呈现右偏斜分布,其中大部分 volatile.acidity 的含量在 0.15~0.4 之间。
citric.acid 呈现正态分布,峰值为0.3,分布在0.5附近出现变化。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.600 1.700 5.200 6.391 9.900 65.800
residual.sugar 是正偏斜分布,由于大部分的 residual.sugar 在0~20之间。
将 residual.sugar 取log10,可以得到一个双峰分布,如上图所示。
绝大部分的 free.sulfur.dioxide 的值分布在0~100之间, 绝大部分的 total.sulfur.dioxide 值分布在 50~250 之间。
去掉 free.sulfur.dioxide 和 total.sulfur.dioxide 中的比较高的异常值。
从上图可以看出,free.sulfur.dioxide 和 total.sulfur.dioxide的分布都很均匀。
sulphates的分布比较均匀,但chlorides的分布大部分在0.0~0.1之间,去掉chlorides中异常值,如下:
去掉以后,chlorides大致呈现正态分布。
pH的分布大致呈现正态分布。
density分布大部分在0.997~1.002的范围内
alcohol呈现偏右斜分布。
查看alcohol的统计数据如下:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.00 9.50 10.40 10.51 11.40 14.20
由于变量中包含3中酸,fixed.acidity,volatile.acidity,citric.acid, 现在新建一个变量
acid = fixed.acidity + volatile.acidity + citric.acid,查看acid的分布。
本数据集包含4898种白葡萄酒,以及11个关于酒的化学成分的变量。
这11个变量分别是:fixed.acidity, volatile.acidity, citric.acid, residual.sugar, chlorides,sulphates, 单位为(g / dm^3);
free.sulfur.dioxide, total.sulfur.dioxide,单位为(mg / dm^3), alcohol 单位为(% by volume) density 单位为(mg / cm^3), pH
这11个变量均为连续变量
变量quality表示白葡萄酒的质量,由至少3名葡萄酒专家对每种酒的质量进行评分,分数在0(非常差)和10(非常好)之间。
数据集的主要特征应该是酒精度数 alcohol 和 quality。
pH、residual.sugar、total.sulfur.dioxide以及其他特征对我的研究可能有用。还需要后续具体查看。
目前,根据3种酸,计算了新变量 acid,表示3种酸的总和。
新变量 acid 没有不寻常的分布,由于 fixed.acidity 的值比 volatile.acidity 和 citric.acid 大很多,将三者相加以后,主要是由 fixed.acidity 的值起作用,故而 acid 的分布整体与 fixed.acidity 的分布一致。
## [1] "fixed.acidity" "volatile.acidity" "citric.acid"
## [4] "residual.sugar" "chlorides" "free.sulfur.dioxide"
## [7] "total.sulfur.dioxide" "density" "pH"
## [10] "sulphates" "alcohol" "quality"
从上述相关表中可以看出,
residual.sugar 与 density 相关度最高:0.84;
free.sulfur.dioxide 和 total.sulfur.dioxide 相关度为:0.62 total.sulfur.dioxide 和 density 的相关度为:0.53
存在较高的负相关度的变量为: alcohol 与 density : -0.78
alcohol 与 total.sulfur.dioxide: -0.45 alcohol 与 residual.sugar: -0.45
fixed.acidity 与 pH:-0.43
由于 quality 是分类变量,所以 quality 与其他变量的关系用箱线图来表示。 在双变量分析的箱线图中加入 jitter,能够更丰富的传递信息
从图中可以看出, quality 与 alcohol 的变化趋势为, 随着quality的增加,alcohol的度数增加,即两者呈现正相关关系。 在箱线图中加入jitter,能传递更加丰富的信息,加入线性回归线,可以减少被极端值影响的情况,更好的反映数据之间的趋势。
从上图可以看出,quality 与 pH 的关系并不明显,呈现非常微弱的正相关关系。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.2700 0.3200 0.3342 0.3900 1.6600
从上图可以看出,quality 和 citric.acid 的回归线几乎在一条水平线上,说明 citric.acid 与 quality 无相关关系 。
从图中可以看出,residual.sugar 和 density 呈正相关关系
从图中可以看出,total.sulfur.dioxide 和 density 呈现正相关关系。
从上图可以看出,alcohol 与 density 之间,呈现明显的负相关关系
从图中可以看出,当 total.sulfur.dioxide 增加时,alcohol 整体呈现下降趋势,即两者呈现负相关关系。
从图中可以看出,fixed.acidity 的值越高,pH的值越低,即两者呈现负相关关系。
在这部分中,主要探讨了 quality 和 alcohol 之间的关系。
从观察中可以看出,随着quality 的增加, alcohol的值先减少,再增加,在quality=5时,alcohol 达到最低平均值。
还探讨了 pH 与 quality 的关系,关系与上面 quality 与 alcohol 之间的关系很相似。
也是随着quality 的增加, pH 的值先减少,再增加,在quality=5时,pH 达到最低平均值。
residual.sugar 和 density 的关系:两者呈现正相关关系,随着 residual.sugar 增加,density 的值也增加;
total.sulfur.dioxide 和 density 的关系:两者也呈现正相关关系,随着 total.sulfur.dioxide 增加,density 呈现增加趋势;
alcohol 和 density 的关系:两者呈现负相关关系,随着 alcohol 增加,density 呈下降趋势;
alcohol 和 total.sulfur.dioxide 的关系:两者呈现负相关关系;
fixed.acidity 和 pH 的关系 :两者呈现负相关关系,随着 fixed.acidity增加,pH呈现下降趋势。
其中,最强的关系是residual.sugar 和 density的关系,从图中可以看出,两者正相关关系很明显,且相关系数为 0.84 .
从图中可以看出,当alcohol一定时,density越高,quality的颜色越深,也就是说质量更高,但quality=3 和 quality = 9 这两条线并不遵循这个规律,但由于quality = 3和9 的数据相对于其他等级来说,太少了,远小于30个数据,这里有可能会出现误差。在总结规律时,暂时先不考虑这两个质量的影响。
故,从整体上来说,当alcohol一定时,density越高,quality的质量更高。
从图中整体来看,alcohol = 10.5 是一个分界线,当 alcohol > 10.5 时,ph 值一定时, pH 取值越高时,quality 的质量越高。 当 alcohol < 10.5 时,关系并不明确。
从上图中可以看出,当alcohol 一定时,residual.sugar 值越大,整体上 quality的值也越大,不过在 quality=3和9 时,并不遵循此规律。由于quality=3和9的数据量太小,远小于其他值,存在误差的可能性很大,我们可以暂时不考率quality=3和9的情况。 再观察图形,可以看出,从整体来说,当alcohol 一定时,residual.sugar 值越大,quality的值也越大。
当 alcohol 保持一致时, total.sulfur.dioxide 与 quality 关系并不明确,故 total.sulfur.dioxide 与 alcohol 并不是相互加强的关系。
由于quality为分布变量,如果出现一个连续变量(alcohol,sulphate等等)VS 连续变量 VS 分类变量(quality)的情况,所以我们散点图的x,y值应该为这两个连续变量,然后颜色元素应该代表分类变量quality。否则的话如这次提交中的图形将quality选为x值的话图形中的点是重叠无法看清里面的分布的。
探索过程中发现,pH、residual.sugar、density 和 alcohol 是相互加强的关系。由于quality = 3 和 9 的数据量太少了,在 quality = 3 和 9 的趋势上,可能存在误差。
暂无。
暂无。
从图中可以看出,quality分布大致呈现正态分布。其中峰值在quality=6这里。这说明了大部分酒的品质差别都不大,特别好的酒和特别差的酒都是少数。
从图中可以看出, quality 与 alcohol 呈现正相关关系,当 Quality 增加时, alcohol 也呈现上升趋势。
从图中整体来看,alcohol = 10.5 是一个分界线,当 alcohol > 10.5 时,ph 值一定时, pH 取值越高时,quality 的质量越高。 当 alcohol < 10.5 时,关系并不明确。
——